华南师范大学环境研究院

科学研究

基于机器学习和分子模型筛选鱼类雄激素受体激动剂

2024-02-23 14:37:00 来源:华南师范大学环境研究院 点击:

图片1.png

近日,华南师范大学环境学院应光国教授团队2021硕士龙小冰、史文俊副研究员等人在《Journal of Hazardous Materials》上发表了题为Screening androgen receptor agonists of fish species using machine learning and molecular model in NORMAN water-relevant list的论文(DOI: 10.1016/j.jhazmat.2024.133844)。该论文通过构建机器学习模型和多种鱼类雄激素受体(AR)分子模型,预测了NORMAN水相关数据集中AR激动剂,分析可疑AR激动剂与鱼类AR的结合模式和亲和力。结果表明,结合机器学习和分子模型可快速筛选鱼类AR激动剂,为评估新污染对鱼类生态毒性提供了新的策略。

图文摘要

图片2.png 

 

全文速览

雄激素受体(AR)激动剂具有较强的内分泌干扰效应,如引起鱼类性别比例异常和性腺发育受阻目前研究主要利用人AR体外研究污染物与其结合能力。然而,快速预测水生生物AR激动剂方法仍然较少本研究利用机器学习和分子模型筛选鱼类的AR激动剂。在研究中,首先构建了多种机器学习模型,如深度森林(DF))、随机森林和人工神经网络,用于快速预测AR激动剂,获得高风险物质清单然后,利用AlphaFold2构建了斑马鱼、黑头呆鱼、食蚊鱼、青鳉鱼和草鱼五种实验室常用鱼类AR分子模型,进一步筛选AR激动剂。最后,通过斑马鱼体内暴露实验,验证虚拟筛选结果。结果表明,深度森林机器学习模型性能优越,准确度和灵敏度分别达到了0.990.97利用机器学习模型,从NORMAN清单中共筛选了245可疑的AR激动剂,包括糖皮质激素、胆固醇代谢物和心血管药物。分子对接结果进一步显示,大多数可疑的AR激动剂均可与人类AR中的Asn705Gln711Arg752Thr877残基以及5种鱼类AR中相应位点残基结合,对鱼类具有潜在的雄激素效应。

引言

内分泌干扰物(EDCs)是生态毒理学领域研究的热点之一EDCs可与核受体(NRs)相互作用如雄激素受体(AR),直接或间接干扰激素合成,导致鱼类生殖发育异常。大量研究表明,外源雄激素激动剂对斑马鱼(Danio rerio, 青鳉鱼Oryzias latipes)和黑头 Pimephales promelas 的生殖功能和性特征有强烈影响。睾酮衍生的孕激素左炔诺孕酮和去甲睾酮是雄激素激动剂,可促进睾丸精子成熟,引起斑马鱼雄性化。一些非甾体物质,如全氟烷基酸(PFAAs)和丙氯嗪也会导致斑马鱼雄性增加。化学品在工业、农业和日常生活中的使用越来越多,对鱼类生态风险日趋增加,迫切需要快速筛选可疑的鱼类AR激动剂。

美国环境保护署(U.S. EPA)在2012年开始关注高通量和计算筛选方法来研究AR与化学品之间的结合力。有研究利用定量构效关系(QSAR)和机器学习(ML)方法预测AR结合力,灵敏度(94.7%)和特异性(81.1%较高。尽管E-Tox中收集了大量水生生物毒性数据,常用于水生毒性预测但缺乏公开可用的鱼类NRs高通量分析数据集,限制了对鱼类AR激动剂的有效预测。本研究旨在通过ML和分子模型的混合方法快速筛选鱼类AR激动剂。我们构建了传统和深度机器学习模型,从NORMAN水相关数据集中筛选了可疑的AR激动剂清单同时利用AlphaFold2构建斑马鱼、黑头鲦鱼、食蚊鱼、青鳉鱼(Oryzias melastigma)和草鱼的AR分子模型,进一步鉴定了可疑的AR激动剂与鱼类AR结合能力和模式

 

图文导读

1. 结合机器学习和分子模型筛选鱼类AR激动剂流程

具体步骤如下:(1)收集和清理训练数据集;(2)生成输入特征;(3)训练机器学习模型;(4)外部验证;(5)使用性能最佳的机器学习模型预测AR激动剂;(6)分析鱼类AR与可疑AR激动剂亲和力和结合方式;(7)实验验证。

图片3.png 

Fig. 1. The workflow for screening the suspect AR agonists in the fish species.

1. 筛选鱼类AR激动剂工作流程

2. 机器学习模型

1)机器学习模型的性能:使用清洗后训练集的机器学习模型性能高于使用Tox21原始数据集模型性能(表1)。由表1可以看出,通过训练高质量数据集和Tox21数据集后,模型平衡ACC分别为0.8485 ~ 0.96880.6630 ~ 0.7706同样使用高质量数据集的情况下相比较于其他传统机器学习和深度学习方法,深度森林表现出最佳的预测性能(表1,图2C)。深度森林模型的灵敏度和f1-score高于传统机器学习模型和深度学习模型(表1)。特征输入方面,在相同阈值下,使用分子指纹(MF分子描述符(MD组合特征的深度森林模型AUCACC高于使用MFMD单一特征的深度森林模型

2)重要的特征: 通过模型解释发现fr_bicyclicSMR_VSA4NumAliphaticCarbocycles是最重要的个特征(图2D)。fr_bicyclic表示双环结构。SMR_VSA4是一个moe类型描述符,表示MR贡献和表面积贡献。NumAliphaticCarbocycles表示脂肪族(至少含有一个非芳香键)碳环的数目。表明,这些重要特征对于AR激动剂有显著影响(图2D)。

Table 1 Model performances in the test dataset based on the high-quality and Tox21 dataset

1 基于高质量数据集和Tox21数据集的模型性能

Training set

Model

Features

Testing
accuracy

AUC

Precision

Sensitivity

F1-score

Balance
accuracy

High-quality dataset
1717

DF

MD+MF

0.9971

0.9890

1.0000

0.9700

0.9800

0.9688

MF

0.9971

0.9890

1.0000

0.9700

0.9800

0.9688

MD

0.9913

0.9880

0.9400

0.9700

0.9500

0.9657

RF

MD+MF

0.9855

0.9516

0.9432

0.9220

0.9320

0.9219

MF

0.9884

0.9663

0.9675

0.9220

0.9445

0.9235

MD

0.9826

0.9589

0.9205

0.9205

0.9205

0.9204

ANN

MD+MF

0.9884

0.8343

0.9900

0.8800

0.9300

0.8824

MF

0.9855

0.8816

0.9600

0.8800

0.9200

0.8808

MD

0.9883

0.9220

0.9600

0.9100

0.9300

0.9102

SVM

MD+MF

0.9797

/

0.9575

0.8485

0.8945

0.8485

MF

0.9680

/

0.8355

0.9125

0.8695

0.9127

MD

0.9709

/

0.8495

0.9142

0.8786

0.9142

DT

MD+MF

0.9622

0.9024

0.8135

0.8860

0.8455

0.8861

MF

0.9767

0.8667

0.8940

0.8940

0.8940

0.8938

MD

0.9593

0.8942

0.7988

0.9080

0.8432

0.9080

Tox21 dataset
7117

DF

MD+MF

0.9649

0.7290

0.8200

0.6600

0.7100

0.6630

MF

0.9691

0.7210

0.9000

0.6700

0.7300

0.6652

MD

0.9621

0.6695

0.7800

0.6700

0.7100

0.6695

RF

MD+MF

0.9768

0.7840

0.9451

0.7530

0.8203

0.7530

MF

0.9754

0.7732

0.9197

0.7523

0.8132

0.7523

MD

0.9740

0.7970

0.8827

0.7672

0.8136

0.7672

ANN

MD+MF

0.9572

0.6933

0.7600

0.7000

0.7200

0.6964

MF

0.9663

0.6625

0.8800

0.6800

0.7400

0.6796

MD

0.9543

0.7596

0.7400

0.7200

0.7300

0.7238

SVM

MD+MF

0.9073

/

0.6182

0.7637

0.6546

0.7637

MF

0.8989

/

0.6020

0.7358

0.6331

0.7358

MD

0.9108

/

0.6119

0.7263

0.6436

0.7263

DT

MD+MF

0.9459

0.7069

0.6841

0.7212

0.7006

0.7212

MF

0.9551

0.7104

0.7267

0.7338

0.7302

0.7338

MD

0.9424

0.7094

0.6736

0.7272

0.6961

0.7272

 

图片4.png 

Fig. 2. The performances of machine learning models.

2. 性能最佳的机器学习模型

3. 鱼类AR的分子模型

1人类和鱼类AR亲缘关系:人类、斑马鱼、黑头鲦鱼、食蚊鱼、青鳉鱼和草鱼的AR氨基酸序列具有共同的保守区域(例如,hAR的残基540 - 906)(图3A)。人类氨基酸序列与5种鱼类AR整体相似度为46.85 ~ 50.46%

2AR的三维结构五种鱼类之间AR LBDplDDT评分 > 90(图3C)。得分越高,表明5种鱼类的AR LBD结构质量越高。3D结构比较(图3D)显示,不同物种的蛋白质整体折叠高度保守,与AR序列的相似性一致

3关键残基两种雄激素(睾酮和雄甾酮)和22种孕激素(如地屈孕酮)常与hAR天冬酰胺(Asn705、谷氨酰胺(Gln711、精氨酸(Arg752苏氨酸(Thr877残基中的一个或多个形成氢键。睾酮、雄甾酮、地孕酮(图3E)和左炔诺孕酮也常与zARAsn655Gln661Arg702Thr825;fARAsn626, Gln632, Arg673Thr796;moARAsn542Gln548Arg589Thr712;meARAsn505Gln511Arg552Thr675;gARAsn636, Gln642, Arg683Thr806一个或多个残基形成氢键。有意思的是,鱼类AR与典型雄激素结合的4个关键残基与hAR 4个重要残基在对应的位点上,并表现出高度的保守性和同源性(图3A, D)。

 图片5(1)(1).png

Fig. 3. Comparison of AR amino acid sequences and 3D structures between human and the five fish species.

3. 人类与五种鱼类AR结构比对以及关键的氨基酸残基

 

4. NORMAN列表中可疑AR激动剂

1ML方法预测AR激动剂使用性能最佳的两种深度森林模型,在NORMAN水相关数据集,分别筛选出300262个可疑AR激动剂。在这两个可疑AR激动剂列表中,共有245个物质被两个模型均预测为AR激动剂(SIS7)。去除训练数据集中重叠的化学物质,获得186个可疑的AR激动剂,包括167种类固醇和11心血管药物(图4C)。

2鱼类ARs的亲和力这些可疑AR hARzARmeARfARmoARgAR平均结合亲和力分别为-8.730-8.366-9.132-8.619-8.874-9.058 kcal/mol。结合分数越低,亲和力越。在5种鱼类中,T结合亲和力均接近-10 kcal/mol。地塞米松、氯倍他醇丙酸等糖皮质激素结合亲和力甚至低于T< -10 kcal/mol。此外,心血管药物和类固醇转化产物在5种鱼类中也表现出高亲和力。例如,coprostanol, 20, 20-ethylenedioxy-17-hydroxy-1, 4, 6-pregnatrien-3-one, stanozolol, 3 beta, 5 beta-dihydroxy drospirenone ring-opened alcohol impurity, epi-coprostanol, fluticason, rimexolone, fluticason furoate, dexamethasone, dexamethasone 21-isonicotinate5种鱼类ARs具有高亲和力,表明5种鱼类具有高风险虽然人类和鱼类的AR具有较高的同源性,但其结合氨基酸也表现出轻微的物种差异(图4D)。

 图片6(1).png

Fig. 4. Model application.

4. 模型应用

5. 实验验证

本研究选取了粪甾醇(COP)、司坦唑醇STA)和地塞米松(DEX)进行实验验证。睾酮(T)作为阳性对照。雄激素受体拮抗剂氟他胺(FLU)作为阴性对照。在35dpf时,TSTACOPDEX均显著降低了生殖细胞相关基因ddx4dnd1fshbwee2zar1zp3b的转录表达水平,导致斑马鱼雄性(图5A)。相反,FLU增加了这些基因的转录表达水平,导致雌性(图5A-C)。重要的是,AR激动剂和FLU联合暴露后,显著削弱了AR途径和生殖细胞发育途径中基因转录表达水平和雄性比例(图5A-D)。因此FLU TSTACOPDEX联合暴露后均表现有典型的拮抗效应(图5A-D,该结果也再次验证了虚拟筛选的结果。

图片7(1)(1).png

Fig. 5. Experimental validation in zebrafish.

5. 斑马鱼实验验证

结论与意义

本研究通过结合机器学习和分子模型,可有效筛选鱼类AR激动剂,获得可疑AR激动剂清单,并评估其对鱼类种群的生态风险。通过本策略,运用机器学习模型从大数据中快速预测AR激动剂,获得规模较小数据集,为后续分子对接分析提供可疑物质清单,从而聚焦高风险AR激动剂。通过构建鱼类AR受体分子模型,进一步分析可疑AR激动剂与鱼类AR中关键氨基酸结合能力,从而预测其对鱼类潜在的雄激素效应,这对于快速评估新污染物对鱼类生态风险具有重要意义。

 

 

全文链接

Xiao-Bing Long, Chong-Rui Yao, Si-Ying Li, Jin-Ge Zhang, Zhi-Jie Lu, Dong-Dong Ma, Chang-Er Chen, Guang-Guo Ying, Wen-Jun Shi*. Screening androgen receptor agonists of fish species using machine learning and molecular model in NORMAN water-relevant list. J. Hazard. Mater. 2024, 468, 133844.  

Xiao-Bing Long, Wen-Jun Shi*, Chong-Rui Yao, Si-Ying Li, Jin-Ge Zhang, Zhi-Jie Lu, Dong-Dong Ma, Yu-Xia Jiang, Guang-Guo Ying. Norethindrone suppress the germ cell development via androgen receptor resulting in male bias. Aquat. Toxicol. 2023, 261, 106604.